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摘要 : 【 目的 ] 将 开放 获取 论文 推送 转发 服务 系统 Switch 分 发 的 本 机 构 知 识 产 出 数据 自动 同步 存 缴 到 机 构 知识 
库 中 。[ 方法 ] 使 用 定时 任务 调度 与 FTP 协议 进行 数据 同步 ， 通 过 文件 包 、 文 件 解析 将 数据 预 加 载 到 数据 库 ， 同 
时 提供 导入 管理 、 已 导 和 人 数据 管理 、 审 计 等 功能 。[ 结果 ] 实现 数据 的 自动 同步 与 半自动 化 导入 。 已 完成 对 Web 
of Science 超过 6 万 条 数据 的 接收 与 存 缴 。[ 局 限 ] iSwitch 推送 数据 的 准确 率 与 及 时 性 有 待 提高 , IR 需 进一步 优 


化 数据 导入 功能 提高 自动 化 程度 。[ 结论 ] 基于 iSwiteh 的 机 构 知 识 库 内 容 建 设 , 大 大 减轻 了 科研 人 员 、 


机 构 知 


识 库 管理 人 员 的 负担 并 保证 了 数据 质量 。 该 模式 具有 一 定 的 推广 价值 。 


关键 词 : 开放 获取 ”机构 知 识 库 iSwith 内 容 建设 


分 类 号 : G250.7 


1 5l 


机 构 知识 库 (Institutional Repository, ID KRE 
设 长 期 以 来 普遍 面临 着 科研 人 员 主 动 参与 积极 性 不 高 
的 难题 。 根 据 欧 洲 PEER 项 目的 调查 报告 即使 由 出 
版 商 邀 请 作者 上 传 论文 的 最 终 同 行 评 议 稿 , 实际 存 缴 
率 也 仅 为 2%0D。 结 合 中 国 科 学 院 IR. 的 建设 经 验 , 科研 
人 员 之 所 以 参与 度 不 高 ， 主 要 原因 有 科研 人 员 不 熟悉 
IR 存储 操作 流程 、 担 心 付出 的 时 间 成 本 、IR 对 用 户 的 
吸引 力 不 足 等 中 。 

通过 基于 标准 Web 协议 的 机 带 接 口 (如 OAI, 
REST API、SWORD 等 ) 从 外 部 系统 中 获取 本 机 构 的 知 
识 产 出 逐渐 成 为 一 种 比较 流行 的 IR. 内 容 建 设 方式 。 
这 种 方式 可 以 减少 资源 重复 建设 带 来 的 人 力 、 物 力 消 
耗 ， 也 避免 了 人 工 存 缴 过 程 中 可 能 造成 的 元 数据 丢 
失 问 题 。 


m 


随 着 开放 获取 运动 的 发 展 ， 越 来 越 多 的 出 版 商 文 
持 将 论文 的 元 数据 (甚至 全 文 ) 通 过 机 器 接口 推送 到 作 
者 所 在 机 构 的 知识 库 中 。 例 如 ， 麻 省 理工 学 院 图 书馆 
与 BioMed Central 合作 ， 后 者 会 不 定期 自动 将 麻 省 理 
工学 院 作 者 发 表 的 文章 元 数据 与 全 文 推送 到 他 们 的 机 
构 知 识 库 中 局 ; 意大利 国家 地 质 与 地 球 物理 学 研究 所 
(INGV) 四 与 开放 获取 期 刊 Annals of Geophysics 达成 协 
X, 一 旦 前 者 有 文章 通过 后 者 发 表 , 后 者 会 自动 将 论 
文 提交 到 前 者 的 Earth-prints 知识 库 中 中 JISC 的 
Repository Junction Broker(RJB) 项 目 ， 旨 在 建立 一 个 
论文 交换 中 心 , 它 先 从 多 个 出 版 商 系统 中 接收 数据 ， 
再 根据 作者 单位 将 论文 分 发 到 每 个 作者 所 在 机 构 的 知 
识 库 中 。 

中 国 科学 院 文献 情报 中 心 建立 的 论文 推送 转发 服 
务 系统 一 一 iSwitchW， 其 初 训 类 似 于 JISC 的 RIB。 主 
要 功能 是 从 相关 出 版 社 获取 并 按 机 构 分 发 中 国 科 学 院 


通讯 作者 : IKIER, ORCID: 0000-0002-5105-598X, E-mail: zhangwq@llas.ac.cn。 
* 本 文系 中 国 科学 院 文献 情报 能 力 建设 专项 “中 国 科学 院 机 构 知 识 库 功能 扩展 ”项 目 (项 目 编号 :Y5ZG08100) 的 研究 成 果 之 一 。 
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作者 公开 发 表 的 论文 ,提供 标准 接口 支持 数据 共享 ”。 
中 国 科学 院 机 构 知识 库 系统 与 iSwitch 合作 , 各 研究 所 
IR. 自动 收割 并 导入 让 witch 分 发 的 本 机 构 知 识 产 出 数据 。 

基于 iSwitch 的 IR 内 容 建 设 主要 是 通过 定时 任务 
调度 与 FTP 协议 进行 数据 同步 , 对 文件 包 、 文 件 解析 
提取 其 中 的 分 发 批 次 信息 、 知 识 产 出 元 数据 并 将 其 预 
加 载 到 数据 库 ,， 为 管理 员 提 供 数 据 导入 管理 功能 以 半 
自动 化 方式 实现 数据 的 最 终 导 入 。 此 外 ,还 提供 了 出 
错 管理 、 已 导 人 数据 批量 更 新 、 审 计 等 功能 。 


2 功能 框架 


iSwitch 使 用 FTP 通信 协议 实现 数据 共享 。 每 当 接 
收 到 出 版 社 新 推送 的 数据 时 ， 则 解析 识别 作者 的 机 
构 、 资 助 机 构 ， 再 把 知识 产 出 数据 分 发 到 相应 机 构 的 
文件 目录 下 。 基 于 开放 获取 论文 推送 转发 服务 系统 
iSwitch 的 IR. 内 容 建设 主要 功能 包括 数据 同步 、 批 次 
数据 浏览 与 导入 、 已 导入 数据 管理 、 作 品 认领 与 审计 
等 。 系 统 总 体 功 能 框架 设计 如 图 1 所 示 : 


iSwitch 


授权 管理 FTP 批 次 状态 接口 
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批 
次 


数 


z EN 


a XpmxERRE 
Si > D 


SE DESEE > AU (D 


[e 


IR. 直接 使 用 的 iSwitch 服务 主要 有 授权 管理 、FTP 
服务 器 、 批 次 状态 接口 。 

(1) 授权 管理 : iSwitch 采用 基于 IP 的 访问 授权 控 
制 。 一 般 由 IR 开 发 人 员 直 接 登 录 iSwitch 授权 系统 完 
成 相关 信息 的 注册 。 

(2) 数据 自动 同步 : 代 通 过 定时 任务 调度 从 iSwitch 
的 FTP 服务 器 同步 本 机 构 知识 产 出 , 数据 下 载 到 本 地 
缓存 后 , 通过 文件 解析 、 元 数据 解析 与 映射 转换 , 保存 
到 数据 库 并 给 IR 管理 员 发 送 导 入 提醒 邮件 通知 。 

(3) 批 次 浏览 与 导入 : 支持 IR 管理 员 浏 览 批 次 列 
表 以 及 批 次 下 的 知识 产 出 详细 信息 。 由 于 自动 同步 存 
在 网 络 传输 中 断 可 能 以 及 管理 员 实时 同步 数据 的 需 
K, 系统 支持 对 某 些 或 全 部 批 次 列表 进行 手动 同步 。 
最 终 由 下 管理 员 完 成 数据 执行 ,导入 时 需 确 定 导 人 方 
式 、 目 标 专题 、 导 和 人 字段 等 。 某 一 批 次 数据 全 部 导 和 人 
后 ,向 iSwitch 的 批 次 状态 信息 接口 反馈 导入 状态 。 

(4) 已 导入 数据 管理 : 支持 IR 管理 员 按 导入 方式 
分 类 浏览 已 导 和 人 数据 ,支持 对 导入 后 又 被 删除 数据 的 
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图 1 系统 功能 框架 


状态 记录 以 及 对 出 错 数据 或 已 删除 数据 的 重新 导入 。 
考虑 到 iSwitch 原始 数据 更 新 的 可 能 ,提供 对 已 导入 知 
识 产 出 元 数据 自动 更 新 的 功能 。 

(5) 认领 与 审计 : iSwitch 导入 的 数据 一 般 只 有 元 
数据 而 不 包含 全 文 。 耻 通过 作品 催 领 与 全 文俊 缴 、 存 
储 审计 等 功能 ,审计 并 提醒 用 户 及 时 完成 作品 认领 、 
全 文 上 传 。 

3 ”关键 功能 的 设计 与 实现 
3.1 数据 同步 

iSwitch 分 发 的 知识 产 出 数据 在 FTP 服务 右上 的 
组 织 结构 如 “出 版 商 一 机 构 一 批 次 一 文章 "”。 一 个 批 次 
对 应 一 次 文件 分 发 ， 一 次 分 发 一 般 包 含 多 篇 文章 。 每 
篇 文章 以 ZIP 文件 包 的 形式 存储 ,其 中 包括 出 版 商 原 
始 版 本 的 元 数据 描述 文档 (一 般 为 XML 格式 ) 以 及 
iSwitch 使 用 JATS(Journal Article Tag Suite) 标 准 中 重新 
编码 的 文档 。 

iSwitch 提供 单独 的 批 次 及 其 知识 产 出 列表 描述 


服务 接口 , 但 FTP 存放 数据 的 目录 结构 本 身 包含 了 这 
些 信 息 ,， 且 原始 数据 的 获取 也 需要 从 FTP 服务 器 下 
载 。 所 以 , IR 通过 直接 读 取 FTP 目录 结构 获取 批 次 信 
息 。 为 了 方便 文件 同步 , IR 在 本 地 建立 缓存 目录 并 采 
取 与 iSwitch 的 FTP 批 次 文件 存储 目录 相 一 致 的 组 织 
结构 。 

IR 创 建 了 基于 Quartz 框架 tM 的 定时 任务 对 iSwitch 
数据 进行 自动 收割 。 目 前 ,收割 频率 默认 是 每 周一 次 。 
FTP 文件 下 载 功 能 主要 是 基于 Apache Commons-Net 
程序 包 的 FTP Client 模块 提供 的 公共 服务 接口 实现 。 
从 元 数据 描述 XML 文档 中 解析 读 取 元 数据 使 用 了 
JDOM 组 件 。 批 次 数据 自动 同步 程序 处 理 流程 如 图 2 
PZR: 


从 FTP 获 取 批 次 列表 


循环 读 取 批 次 列表 


从 FTP 获 取 当 前 批 次 下 所 有 知识 产 出 列表 


循环 读 取 批 次 下 知识 产 出 数 


本 地 缓存 是 否 已 存在 
该 知识 产 出 


T 下 载 知识 产 出 数据 
文件 包 和 解析 


数据 库 中 是 否 已 存在 
该 知识 产 出 


[on 


Y 
元 数据 描述 文档 解析 与 映射 


保存 知识 产 出 数据 到 数据 库 

图 2 数据 同步 流程 
同步 任务 启动 后 , IR 从 参数 配置 中 取得 机 构 的 正 
RAP, 构造 格式 如 “iSwitch 域名 /机 构 名 称 ” 的 URL, 
访问 该 地 址 获取 iSwitch 分 发 给 当前 机 构 的 所 有 批 次 
Ht, 再 循环 读 取 每 个 批 次 下 所 有 知识 产 出 文件 列表 ， 
检查 每 个 知识 产 出 在 本 地 缓存 是 否 存在 ， 如果 不 存 在 
则 下 载 。 下载 到 的 每 篇 知识 产 出 数据 为 ZIP 压缩 文件 ， 
文件 名 称 中 包含 了 分 发 年 月 与 文章 唯一 编号 信息 ， 如 
“201410.00024”。IR 将 ZIP 文件 名 作为 每 篇 文章 的 唯 
一 标识 。 依 据 该 标识 查询 数据 库 判 断 文 章 是 否 已 加 载 
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到 数据 库 。 如 果 没 有 , IR 解压 后 提取 元 数据 描述 文档 
并 解析 元 数据 。 考 虑 到 数据 重新 编码 有 可 能 带 来 的 元 
数据 项 丢失 , IR 中 选择 直接 读 取 出 版 社 版 本 的 描述 文 
档 。 由 于 IR 底层 数据 描述 是 基于 DC 元 数据 框架 , 解 
析 得 到 的 元 数据 需要 做 元 数据 映射 处 理 之 后 存 和 IR 
数据 库 。 不 同 出 版 社 使 用 的 编码 格式 一 般 不 同 , 在 处 
理 不 同 来 源 出 版 社 的 数据 时 需要 创建 与 其 对 应 的 数据 
解析 器 。 同 步 过 程 中 IR 还 会 检测 iSwitch 中 已 删除 , 但 
本 地 已 加 载 到 数据 库 中 的 批 次 、 知 识 产 出 数据 , 将 这 
些 数据 删除 (该 操作 不 影响 已 导入 数据 )。 自 动 同步 完 
成 后 ， 如果 此 次 同步 下 载 到 新 数据 ， 则 会 向 IR 管理 员 
发 送 邮件 通知 提醒 及 时 完成 数据 导入 。 

除了 自动 同步 , IR 还 提供 手动 同步 功能 。 手 动 同 
步 除 了 实现 类 似 自 动 同 步 的 功能 外 , 还 支持 可 选 同 步 
哪些 批 次 ,以 及 是 否 重新 从 元 数据 描述 文档 中 解析 元 
数据 并 更 新 到 数据 库 。 

3.2 ”数据 导入 

同步 到 IR 尚未 导入 的 知识 产 出 数据 与 IR 中 已 正 
式 导 入、 可 公开 访问 的 数据 在 数据 库 中 的 存储 组 织 
式 基 本 一 致 ， 只 是 将 其 标记 为 未 导入 且 不 公开 访问 。 
IR. 提供 数据 导入 管理 功能 , 由 IR 管理 员 实现 对 
iSwitch 数据 的 导入 。 导 入 操作 之 所 以 没有 实现 完全 自 
动 化 , 是 因为 IR 中 的 知识 产 出 是 以 专题 为 单元 组 织 
的 ,需要 由 管理 员 确 定 每 篇 文章 属于 哪个 专题 。 此 外 ， 
对 于 重复 数据 的 处 理 也 需要 由 管理 员 确定 导 人 方式 、 
导入 元 数据 项 等 。 

导入 功能 支持 三 种 可 选 查 重 方式 : 题名 、 内 容 类 
型 + 题名 内容 类 型 +( 出 版 社 文章 编号 或 DOI 或 题名 )。 
导入 方式 有 三 种 : 新 增 、 续 补 、 跳 过 。 新 增 是 无 论 IR 
中 是 否 已 存在 都 会 创建 新 的 记录 ; 续 补 是 针对 已 存在 
数据 , 使 用 iSwitch. 数据 更 新 已 有 的 知识 产 出 元 数据 ; 
不 属于 本 机 构 的 导入 时 可 以 选择 跳 过 。 

为 了 减少 导 和 人 过 程 中 管理 员 的 人 工 操作 , 在 加 载 
待 导 入 数据 时 ， 系统 会 提前 做 一 些 数据 预 处 理 ， 主 要 
是 对 已 存在 数据 的 检测 与 目标 专题 的 确定 。 通 过 默认 
的 查 重 方式 检测 每 条 待 导入 数据 是 否 已 存在 并 在 导入 
管理 界面 显示 查 重 结果 。 对 于 IR 中 已 存在 的 ， 目 标 专 
题 默认 与 已 存在 数据 所 属 专 题 保存 一 致 ， 导 人 方式 也 
选择 续 补 。 对 于 IR 中 不 存在 的 ， 导入 方式 默认 选择 新 
增 ; IR 根据 作者 名 称 与 系统 用 户 别名 库 的 模糊 匹配 ， 
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预先 判断 该 知识 产 出 可 能 的 所 属 用 户 ,， 并 将 该 用 户 发 

表 期 刊 论文 所 属 专题 作为 待 导 入 数据 的 默认 专题 。 人 R 

管理 员 在 执行 导入 时 可 修改 默认 的 专题 和 导入 方式 。 
导入 管理 界面 如 图 3 所 示 : 


批 次 导入 帮助 
选择 批 次 : 2045010598. [v 
内 容 夫 型 : 期 刊 6 文 
查 重 方式 : 内 容 类 型 +fWOS 记 录 号 或 DO 或 颗 名 ) |v 
RAA: 170 v 
$jk| [7A [ENESA 
回 题名 
回 作者 
回 刊 名 
BEREN 
导入 字段 : gës 
回 期 号 
Bra 
回 关键 
回 学 科 分 类 
Minor 
未 导入 (4) | BSAGHS:2 || BSAGHHO) || 已 导入 而 过 :T) | BSACRIS 
Ba 其 中 的 第 1 - 4 条 
保存 当前 操作 
RS Wos 原 冶 数 据 已 存在 
sfer ai ansfe 
导入 方式 : 9i OSSERIZZXH 


图 3 iSwitch 数据 导入 管理 


页 面 上 方 是 针对 当前 导入 的 一 些 公 共 参 数 项 设 
B, 包括 要 导入 的 批 次 、 目 标 内 容 类 型 、 查 重 方式 、 
每 页 显示 数据 量 、 导 入 哪些 字段 等 。 页 面 下 方 是 当前 
批 次 未 导入 知识 产 出 列表 ,列表 左 侧 是 通过 解析 
iSwitch 原始 数据 保存 在 数据 库 中 的 未 导入 条 目 ， 其 中 


ChinaXiv 合 作 期 刊 


应 用 认 


“ 跳 过 "方式 导入 。 

Q) 同步 任务 出 错 。 同 步 任务 时 的 出 错 主要 表现 
在 网 络 传输 中 断 ， 以 及 了 R 对 元 数据 描述 文档 中 包含 的 
特殊 编码 格式 、 特 殊 字符 解析 出 错 。 这 些 出 错 会 造成 
同步 到 TR. 的 数据 与 iSwiteh 原始 数据 不 一 致 ,对 此 , IR 
为 管理 员 提 供 了 手动 同步 功能 ,同步 时 还 可 选择 是 否 
重新 加 载 iSwitch 原始 数据 。 当 发 现 程序 存在 解析 错误 
时 , 通过 升级 程序 代码 并 重新 执行 手动 同步 任务 来 
解决 此 问题 。 对 于 已 经 导入 到 系统 中 的 数据 , IR 也 
提供 了 批量 更 新 功能 ， 支持 管理 员 选 择 更 新 特定 
元 数据 项 。 

(3) 已 跳 过 、 已 删除 的 重新 导入 。 有 些 以 “ 跳 过 ” 
方式 导入 的 iSwitch 数据 有 可 能 在 后 期 发 现 确实 是 本 
机 构 的 产 出 。 此 外 , 有 些 已 导入 数据 会 被 管理 员 有 意 
无 意 地 删除 , 后 期 义 想 恢复 这 些 数据 。 针 对 这 种 需求 ， 
了 及 在 数据 成 功 导 和 人 后 , 并 没有 删除 数据 库 中 的 这 witch 
原始 数据 条 目 ， 而 是 将 导入 数据 作为 单独 的 条 目 保 存 ， 
并 保留 两 者 之 间 的 关联 。 这 样 ,就 可 以 记录 已 导入 数 
据 是 否 被 删除 ; MEH, iSwiteh 原始 数据 有 更 新 时 ， 可 
以 关联 更 新 已 导入 数据 。 基 于 以 上 底层 设计 , IR. 支持 将 
已 跳 过 、 已 删除 的 数据 重新 标记 为 未 导入 并 重新 导入 。 
3.4 审计 

IR. 中 的 iSwitch 数据 审计 功能 ,， 文 持 系统 管理 员 
实时 了 解 共 有 多 少 批 次 、 每 个 批 次 的 导入 情况 ,以 及 


对 中 国 科 学 院 作者 及 其 地 址 信息 用 黄色 背景 高 亮 显示 
以 方便 管理 员 导 入 时 检查 文章 是 否 属于 自己 机 构 ; 列 
表 右 侧 是 通过 所 选 查 重 方式 检测 到 的 系统 已 存在 条 
目 。 每 条 数据 下 方 是 目标 导 题 与 导入 方式 选项 。 目 前 
的 功能 支持 一 次 导 和 多 条 数据 , 左右 分 栏 的 方式 清晰 
明了 地 显示 了 未 导入 及 其 对 应 的 已 导入 数据 ， 从 而 最 
大 程度 地 简化 了 IR 管理 员 的 操作 , 提高 工作 效率 。 
3.3 ”容错 功能 

基于 iSwitch BJ IR ARER, 从 iSwitch 分 发 到 TR 
的 数据 下 载 、 解 析 、 导 入 ,甚至 导入 系统 之 后 整个 流 
程 的 每 个 环节 都 有 可 能 出 错 。 主 要 出 错 现象 及 IR 的 解 
决 方案 如 下 : 

(1) iSwitch 分 发 出 错 。 由 于 作者 在 不 同期 刊 上 发 
表 文 章 时 填写 的 作者 机 构 不 统一 , 造成 了 iSwitch 在 数 
据 解析 时 可 能 将 一 些 不 属于 本 机 构 的 数据 分 发 过 来 。 
对 于 这 种 情况 , IR 在 导入 时 由 管理 员 人 工 识别 并 选择 
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已 导入 作品 的 认领 情况 、 全 文 上 传情 况 等 。 对 iSwitch 
来 说 , 需要 了 解 每 个 机 构 分 发 的 数据 是 否 已 下 载 、 某 
一 批 次 数据 是 否 已 全 部 导入 IR 等 。IR 在 数据 同步 、 
导入 过 程 中 会 及 时 向 iSwitch 返回 批 次 数据 的 下 载 与 
导入 情况 以 支持 iSwitch 数据 审计 需求 。 

(1) 研究 所 IR 的 iSwitch 数据 审计 。 研究 所 IR E 
面 的 审计 是 在 IR 内 部 实现 的 。IR 会 记录 每 个 批 次 知 
识 产 出 的 导入 状态 与 导入 方式 ， 从 而 支持 对 批 次 导入 
进度 以 及 按时 入 方式 对 已 导入 数据 做 分 类 统计 。 IR 的 
作品 催 领 与 全 文 催 缴 功能 会 实时 保存 用 户 与 作品 间 的 
关联 关系 、 作 品 认领 及 作品 的 全 文 存储 状态 , 支持 管理 
员 对 未 认领 作品 及 已 认领 但 未 提交 全 文 作品 的 审计 , 并 
对 相关 用 户 批量 发 送 任务 邮件 通知 。 

(2) 对 iSwitch 审计 的 支持 。iSwitch 关于 IR 数据 
使 用 情况 的 审计 ， 其 中 需要 与 IR 系统 协作 完成 的 部 分 
目前 主要 是 对 批 次 是 否 已 成 功 导入 状态 的 获取 。 IR. 在 
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管理 员 执 行 批 次 导入 操作 时 , 会 检查 当前 批 次 是 否 已 
导入 完成 。 如 果 全 部 导 和 成功, 则 向 iSwiteh 提供 的 接 
口 返回 批 次 唯一 标识 与 状态 信息 。 


4 应 用 效果 评估 


目前 , iSwitch 已 完成 对 WoS(Web of Science) 收 录 
的 中 国 科学 院 作者 产 出 文章 的 历史 回溯 并 支持 对 最 新 
数据 的 自动 接收 与 分 发 。 截 至 2015 年 12 月 8 H, 中 
国 科学 院 已 有 83 家 研究 所 的 食 部 署 了 iSwitch 数据 监 
测 导 入 功能 。 根 据 中 国 科学 院 网 格 系统 QR Grid) Xt 
研究 所 iSwitch 数据 下 载 导 入 情况 的 统计 , 已 成 功 导 入 
的 iSwitch 来 源 知识 产 出 数据 有 67 024 条 ， 有 全 文 的 共 
49 885 条 , 全 文 存储 率 达 74% 以 上 。 由 于 iSwitch 不 断 
接收 并 分 发 新 的 知识 产 出 , 该 统计 数字 会 随 着 时 间 不 
断 增长 。 IR 导入 iSwitch 数据 最 多 的 10 个 人 研究 所 如 表 
1 所 示 : 


表 1 iSwitch 数据 导入 TOP10 研究 所 
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基于 iSwitch 的 IR. 内 容 建 设 , 是 科研 人 员 参 与 积极 性 
不 高 背景 下 的 一 种 较为 理想 的 IR. 内 容 建设 模式 。 这 种 
方式 不 仅 减 轻 了 科研 人 员 、IR 管理 员 等 相关 参与 者 的 
负担 , 也 避免 了 人 工 操作 过 程 中 可 能 造成 的 元 数据 出 
错 或 丢失 问题 。 

系统 在 使 用 过 程 中 发 现 还 存在 一 些 不 足 。 例 如 ， 
有 些 研究 所 的 反馈 , 无 法 从 iSwitch 获取 到 Wos 最 新 
收录 的 数据 ，iSwitch 对 新 数据 的 分 发 存在 滞后 性 。 还 
存在 Wos 中 有 收录 的 数据 , 但 iSwiteh 没有 分 发 的 现 
象 。 以 上 问题 与 出 版 社 本 身 提 供 数据 的 完整 性 、 推 送 
频率 以 及 iSwitch 自身 的 数据 分 发 机 制 有 关 。 此 外 , 由 
于 作者 机 构 填 写 不 规范 、 不 同 来 源 期 刊 的 作者 机 构 不 
统一 、 机 构 历 史 名 称 变化 等 因素 造成 有 些 文章 无 法 正 
确 地 分 发 到 其 真正 的 所 属 机 构 。IR 在 数据 导入 自动 化 
方面 有 待 进一步 提高 。 例 如 , 现在 对 于 已 存在 数据 仍 
需要 系统 管理 员 确 认 导 入 , 后 期 可 以 让 管理 员 预 先 定 
义 对 已 存在 知识 产 出 的 处 理 规则 。 在 数据 同步 时 ， 如 
果 iSwitch 数据 与 IR 已 导入 数据 的 题名 及 第 一 作者 相 


研究 所 名 称 数据 导入 量 
中 国 科学 院 大 连 化 学 物理 研究 所 10 692 
中 国 科 学 院 过 程 工 程 研 究 所 4 264 
中 国 科 学 院 海洋 研究 所 4189 
中 国 科 学 院 昆 明 植物 研究 所 3 969 
中 国 科 学 院 武 汉 物 理 与 数学 研究 所 2 181 
中 国 科 学 院 心 理 研 究 所 2 102 
中 国 科 学 院 西安 光学 精密 机 械 研究 所 1 725 
中 国 科 学 院 水 生生 物 研究 所 1 396 
中 国 科 学 院 化 学 研究 所 1 348 
中 国 科 学 院 水 利 部 成 都 山地 灾害 与 环境 研究 所 917 


Wos 提供 通过 收录 文章 内 部 ID(WoS 入 藏 号 ) 获 取 
其 被 引信 息 (包括 被 引 数 、 文 章 在 Wos 中 的 链接 、 引 
用 文章 链接 、 相 关 文 章 链 接 等 ) 的 接口 号 IR 中 历史 
Wos 数据 一 般 不 包含 该 元 数据 。 使 用 iSwitch 分 发 数 
据 对 已 有 数据 补 录 后 , 可 以 在 浏览 知识 资源 时 实时 显 
示 文 章 在 WoS 中 的 被 引 相 关 数 据 。 


5 ih i& 


iSwitch 从 各 出 版 商 获 取 数据 、 按 机 构 分 发 , IR 下 
载 并 导入 iSwitch 已 分 发 数据 .通过 两 个 系统 之 间 的 协 
WE, 实现 了 已 公开 发 表 论 文 从 出 版 社 到 作者 机 构 琐 的 
自动 推送 。 此 前 ,这 些 数据 都 需要 人 工整 理 提交 到 IR. 


[n], 根据 预定 义 规则 直接 导入 。 

iSwitch 暂时 只 支持 对 WoS 来 源 数 据 的 分 发 , 希 
望 以 后 可 以 支持 更 多 出 版 社 开放 获取 论文 的 自动 获取 
与 转发 。 两 系统 在 实际 运行 过 程 中 , 不 断 改 进 优化 , 使 
系统 间 的 交互 更 加 顺畅 、 功 能 更 趋 完善 、 自 动 化 程度 
更 高 ,让 基于 iSwitch 的 IR 内 容 建设 切实 解决 存 缴 难 
的 问题 。 
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Building Institutional Repository with iSwitch Service 


Zhang Wangqiang Zhu Zhongming Yao Xiaona Liu Wei 
(Lanzhou Library, Chinese Academy of Sciences, Lanzhou 730000, China) 


Abstract: [Objective] This study aims to help an organization automatically download its empolyees' open access 
papers from iSwitch, and then import these articles to the institutional repository. [Methods] We first synchronized data 
from iSwitch through timing task scheduling based on FTP protocol. Second, we parsed files and saved metadata to the 
database in advance. Some functions, such as import process and data management, as well as audit, were also provided. 
[Results] Papers could be automatically synchronized from iSwitch and then imported to the institutional repository by 
the system administrator. We have successfully analyzed and imported more than 60, 000 items from Web of Science. 
[Limitations] The accuracy and timeliness of the service by iSwitch need to be improved. The data import function of 
the institutional repository should also be optimized for better services. [Conclusions] The high quality institutional 
repositories built on iSwitch, which significantly relieve burden of researchers and system administors, should be 
promoted. 
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Keywords: Open Access Institutional Repository 


EN 现代 图 书 情报 技术 


